香港大学&字节跳动联合推出:DanceGRPO!视觉生成技术新突破! Reinforcement Learning (RL) 今天已经成为了微调生成式模型的一个重要的方法,现有的方法比如 DDPO 和 DPOK 存在一些固有的限制:当缩放到更大,更加多样化的 Prompt 集时,较难稳定优化,会限制其实用性。 文生 香港大学 字节 flux dancegrpo 2025-09-12 19:33 9